Model Selection

Language Model Alignment

# Language Model Alignment

Decision Tree Reward Gemma 2 27B

A decision tree reward model fine-tuned based on Gemma-2-27B, used to evaluate the quality of content generated by language models, with outstanding performance on the RewardBench leaderboard.

Large Language Model

Transformers English

URM LLaMa 3.1 8B

URM-LLaMa-3.1-8B is an uncertainty-aware reward model designed to enhance the alignment of large language models.

Large Language Model

Gemma 2 9b It SimPO

Gemma 2.9B model fine-tuned on the gemma2-ultrafeedback-armorm dataset using the SimPO objective for preference optimization tasks

Large Language Model

Llama 3 Instruct 8B SimPO

SimPO is a preference optimization method that eliminates the need for reference reward models, simplifying the traditional RLHF pipeline by directly optimizing language models with preference data.

Large Language Model

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase